模型评价模型38 埃洛体系

阿帕德・埃洛 (Árpád Élö, 1903-1992) 是出生于匈牙利的威斯康星密尔沃基马凯特大学物理学教授。此外, 他还是一名热忱的（而且是优秀的）国际像棋棋手。正是这一点驱使他创造出一个有效的方法, 来对棋手进行评分和排名。他的评分体系于 1960 年被美国国际象棋联合会 (USCF) 认可, 进而在 1970 年得到了世界国际象棋联合会 (FIDE) 的承认。埃洛的思想最终在国际象棋这个领域之外也流行开来, 并被加以改进、扩展和修改, 来对其他的体育项目和竞赛进行评分。埃洛所用的前提条件, 是每名棋手的表现都是一个服从正态分布的随机变量 $X$, 其均值 $\mu$ 只能缓慢地随时间而改变。也就是说，尽管在下一场比赛时, 名棋手可能表现得更好些或更差些, 但 $\mu$ 实际上在短期内是恒定的, 而 $\mu$ 的改变需要很长的时间才能发生。

因此, 埃洛推断, 一旦确定了一名棋手的评分, 那唯一能够改变这一评分的因素, 便是该名棋手的表现优于或差于其平均表现的程度。他提出了一个简单的线性修正方法, 该修正与棋手偏离均值的程度成比例。更具体点来说，如果一名棋手最近的表现（或得分 $\left.{ }^{\ominus}\right)$ 为 $S$, 则他的原有评分 $r_{\text {(od) })}$ 将通过下式而被更新为新的评分。 $$ r_{(\text {new })}=r_{\text {(old) }}+K(S-\mu) $$

式中, $K$ 为一个常数一一埃洛开始时设 $K=10$ 。随着可用的国际象棋统计数据变得越来越多，人们发现棋手的表现通常并非是正态分布的，因此 USCF 和 FIDE 都将埃洛的原假设用一条新的假设来代替，这条新假设要求两名棋手得分差的期望值为这两名棋手评分差值的逻辑斯谛函数 (logistic function)。这一改动同时影响了式中的 $\mu$ 和 $K$ ，但这个评分仍然被称为 “埃洛评分”。

1997 年, 鲍勃 - 朗尼安 (Bob Runyan) 修改了埃洛体系来对足球比赛进行评分, 同时, 自 1985 年以来就一直为《今日美国》提供体育评分的杰夫 $\cdot$ 萨加林, 也开始为枚榄球比赛来修改埃洛体系。

在埃洛体系的现有形式下, 其工作机制如下。我们必须从每名竞争者的某个初始评分集开始一一为了能够将国际象棋之外的其他项目也考虑在内, 我们将把竞争者设想为球队。当每次球队 $i$ 和球队 $j$ 相互.交手时, 其各自的评分 $r_{i(\text { old })}$ 和 $r_{j \text { (old) }}$ 就按照似于式的公式被更新为 $r_{i(\mathrm{new})}$ 和 $r_{j(\mathrm{new})}$ 。不过, 现在所有的因素都将在相互比较的基础上来考虑, 即式中的 $S$ 变为 $$ S_{i j}=\left\{\begin{array}{l} 1, \text { 若 } i \text { 击败 } j, \\ 0, \text { 若 } i \text { 被 } j \text { 击败, } \\ 1 / 2, \text { 若 } i \text { 与 } j \text { 战平 } \end{array}\right. $$

而 $\mu$ 变为 $\mu_{i j}=$ 队伍 $i$ 在对阵队伍 $j$ 时所得分数的期望值新假设指出, 在队伍 $i$ 和 $j$ 比赛之前, $\mu_{i j}$ 是评分差 $$ d_{i j}=r_{i(\text { old })}-r_{j \text { (old) }} $$ 的逻辑斯谛函数。标准的逻辑斯谛函数定义为 $f(x)=1 /\left(1+\mathrm{e}^{-x}\right)$, 但在国际象棋评分中所用的则是以 10 为底的版本 $$ L(x)=\frac{1}{1+10^{-x^{\circ}}} $$

函数 $f(x)$ 和 $L(x)$ 本质上是等同的, 因为 $10^{-x}=\mathrm{e}^{-x(\ln 10)}$, 它们的曲线都具有如下 $\mathrm{S}$ 形的特征形状。

埃洛国际象棋评分中 $\mu_{i j}$ 的精确定义为 $$ \left.\mu_{i j}=L\left(d_{i j} / 400\right)=\frac{1}{1+10^{-d d_j / 400}} \text { (其中, } d_{i j}=r_{i(\text { old })}-r_{j(\text { old })}\right) $$ 因此更新球队（或棋手） $i$ 和球队 $j$ 各自评分的公式分别如下。

埃洛评分公式¶

$$ r_{i(\mathrm{new})}=r_{i(\text { old })}+K\left(S_{i j}-\mu_{i j}\right) \text { 且 } r_{j(\text { new })}=r_{j \text { (old })}+K\left(S_{j i}-\mu_{j i}\right) $$

但是, 在使用这些公式来构建你自己的评分系统之前, 还需要对 $K$ 以及式中的 400 这个值有更多些的了解。

优美的智慧¶

埃洛公式那简单的优雅掩盖了其中蒀含的智慧, 即相比于较强的棋手击败较弱的对手而言, 埃洛隐含地为弱者击败强手给出了更高的奖励。例如, 假设一名平均水平的棋手 (记为 avg）的评分为 1500 分, 而一名强手 (记为 $s t r$ ) 的评分为 1900 分, 则 $$ \mu_{\text {arg,str }}=\frac{1}{1+10^{-(1500-1900) / 400}}=\frac{1}{11} \approx 0.09, $$ 而 $$ \mu_{\text {ttr, atg }}=\frac{1}{1+10^{-(1900-1500) / 400}}=\frac{1}{1.1} \approx 0.91 $$ 因此, 平均水平的棋手因击败强手而得到的奖励为 $$ r_{\text {avg }(\text { new })}-r_{\text {mig (old) }}=K\left(S_{\text {arg,str }}-\mu_{\text {arg str }}\right)=K(1-0.09)=0.91 K $$ 而强手击败平均水平的棋手所得的奖励仅为 $$ r_{\text {str (new) }}-r_{\text {str (old })}=K\left(S_{\text {str, arg }}-\mu_{\text {str,aug }}\right)=K(1-0.91)=0.09 K $$ $\mathbf{K}$ 因子国际象棋界所称的 “ $\mathrm{K}$ 因子”目前仍然是一个有争议性的话题, 不同的国际象棋组织使用了不同的值。这个因子的目的在于适当地根据实际与期望得分之间的差值来平衡以往的评分。如果 $K$ 过大。则实际得分与期望得分之间的差值便被赋令了过大的权重, 这将导致评分的变动过大一一例如, 一个大的 $K$ 值意味着, 哪怕表现仅比期望值好那么一点点, 却也能造成评分中的很大改变; 另一方面, 如果 $K$ 过小, 则埃洛的公式将丧失处理更好或更差表现的能力, 而评分也将变得过于停滞一一例如, 一个小的 $K$ 值意味着, 即使一名棋手的表现有了明显改进, 却也不能对其评分产生多少影响。

资料来源

《谁排第一？关于评价和排序的科学》作者:（美）兰维尔，（美）梅耶著出版社:北京：机械工业出版社出版日期:2014.06